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一-; B = | 昌 [一 
融合 受 源 涩 据 的 科研 作 员 画像 构建 方 污 研 认 
目 范 晓 玉 ” 窦 永 香 ” 赵 捧 未 ” 周 潇 
西安 电子 科技 大 学 经 济 与 管理 学 院 西安 710071 

摘要 : [目的 /意义 ] 大 数据 时 代 需 要 将 “人 ”数据 化 ,科研 人 员 也 需要 数据 化 。 科 研 人 员 通 像 的 建立 ,对 于 
科研 管理 层 全 面 了 解 科 研 人 员 的 信息 、 客 观 评 价 其 研究 水 平等 有 重要 作用 ,可 以 作为 分 析 科 研 人 员 研 究 行 为 或 
专家 推荐 的 基础 ,提高 科研 管理 效率 。 [ 方法 “过程 ] 首 先 提出 科研 人 员 画 像 的 概念 ,认为 其 是 描述 科研 人 员 信 
息 的 标签 的 集合 。 其 次 ,以 个 人 主页 、 知 网 、 基 金 网 等 多 个 异 构 数据 源 的 数据 为 基础 ,提出 融合 多 源 数 据 的 科研 
人 员 郴 像 构建 方法 ,分 别 从 科研 人 员 的 基础 属性 、 科 研 偏 好 和 科研 关系 三 方面 形式 化 描述 了 科研 人 员 信息 ,并 
提取 各 个 维度 的 标签 ,以 可 视 化 的 方式 展示 其 画像 。 最 后 ,分 别 以 国内 外 两 位 科研 人 员 为 例 , 说 明了 科研 人 员 
画像 构建 方法 的 可 行 性 。[ 结果 /结论 ] 科研 人 员 画 像 的 构建 适用 于 国内 外 的 科研 人 员 ,能 够 全 面 描述 科研 人 员 
和 各 并 直观 展示 出 来 。 
ss 关键 词 : 科研 人 员 画 像 ”多 源 数 据 ”用 户 模型 
(O 分 类 号 : G203 
© DOI:10. 13266/j issn. 0252 -3116.2018. 15.004 


科研 人 员 是 科技 活动 的 主体 ,科研 人 员 的 相关 信 和 多 源 异 构 性 等 特征 ,对 科研 人 员 信 息 的 有 效 收集 、 管 
局 站 一 类 重要 的 知识 资源 ,在 科学 研究 、 项 目 评审 .成 。” 理 与 分 析 , 将 有 助 于 掌握 科研 现状 ,挖掘 出 科研 项 目 在 
果园 化 ,决策 咨询 等 方面 发 挥 着 举足轻重 的 作用 。 ”开展 过 程 中 的 关键 影响 因素 ,构建 出 现代 科技 创新 的 
2017 年 6 月 发 布 的 42015 年 我 国 科技 人 力 资源 发 展 状 ” “倍增 器 ”和 科学 决策 的 “知春 团 ”, 进 而 从 根本 上 改变 
况 分 析 》 指 出 ,截至 2015 年 ,我国 科 技 人 力 资源 数量 持 。 ”传统 科技 工作 的 管理 与 决策 模式 ”。 因 此 ,本 文 提出 
续 罗 加 ,总 量 达到 7 915 万 人 ,我 国 继续 保持 世界 科技 。” 科研 人 员 画 像 的 概念 ,将 其 用 于 科技 人 员 信 息 大 数据 
人 大 资源 第 一 大 国 的 地 位 。 由 于 科研 人 员 的 数量 不 断 ”的 分 析 , 能 对 科研 人 员 的 个 体 特征 与 偏好 进行 充分 的 
增 获 ,相应 的 问题 也 随 之 而 来 。 一 方面 ,虽然 目前 我 国 揭示 ,准确 地 刻画 出 “ 千 人 千 面 ” ,以 便 准确 地 提供 个 
建 (D 了 多 个 科研 人 员 信 息 库 , 但 是 各 类 信息 由 各 个 部 ”性 化 服务 与 精准 推荐 ” ,也 为 决策 层 提供 真实 有 效 的 
门 分 别 存储 ,数据 分 散 ,缺乏 对 各 类 信息 的 整合 与 关  ” 参考 依据 。 
联 ,对 信息 的 利用 程度 不 高 ,科研 管理 部 门 想 要 了 解 一 a 
个 科研 人 员 ,各 要 通过 各 个 数据 库 检索 ,无 法 对 科研 人 
员 有 一 个 直观 快速 的 了 解 ; 男 一 方面 ,在 科研 评价 中 近年 来 , 越 来 越 多 的 学 者 意识 到 科研 人 员 信 息 的 
“ 唯 论 文 ”指标 或 过 分 强调 论文 指标 的 现象 十 分 普 。 重要 性 ,如 何 建立 统一 的 科研 人 员 信 息 描述 框架 ,实现 
遍 ,不 同类 型 的 科研 人 员 评 价 标 准 也 如 出 一 略 , 忽 略 ”专家 信息 的 统一 描述 是 当前 坡 需 研究 的 重要 课题 。 在 
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了 科研 人 员 其 他 方面 的 贡献 。 大 数据 时 代 需 要 将 
“人 "数据 化 ,科研 人 员 也 需要 数据 化 。 互 联网 和 信息 
技术 的 迅猛 发 展 ,使 得 科研 人 员 的 互动 和 交流 印发 便 
捷 , 同 时 科研 人 员 的 相关 信息 亦 呈 现 出 动态 性 ,海量 性 


语义 网 .关联 数据 等 相关 研究 的 推动 下 ,一些 学 者 从 大 
规模 的 人 员 数 据 中 抽取 人 物 属性 和 关系 ,构建 人 物 本 
体 , 对 人 员 信 息 及 人 际 关 系 进行 建 模 ,形成 便于 共享 和 
语义 化 描述 的 描述 机 制 ”。 在 科技 管理 领域 ,欧洲 采 


* 本 文系 国家 社会 科学 基金 重点 项 目 “ 面 向 决策 支持 的 科技 管理 数据 深度 挖 气 研 究 ”( 项 目 编号 :16ATQ007 ) 研究 成 果 之 一 。 
作者 简介 : 范 晓 玉 (ORCID : 0000 -0001 -8075 -2154 ) ,硕士 研究 生 ; 窦 永 香 ,(ORCID:0000 -0001 -5520 - 9379 ) ,教授 ,博士 ,博士 生 导 师 , 通 
讯 作者 ,E-mail;yxdou@xidian. edu. cn; 赵 捧 未 (ORCID.: 0000 -0003 -4026 -6471 ) ,教授 ,博士 ,博士 生 导 师 ; 周 潇 (ORCID :0000 -0001 -5289 - 


4876) ,讲师 ,博士 。 
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用 EuroCRIS 系统 构建 了 统一 的 描述 模型 CERIF ,将 科 
研 项 目 专家 成果 、 机 构 .仪器 等 科技 资源 进行 一 体 化 
关联 和 互 操作 ”5 。C.， Moreira 等 "采用 D-S 证 据 理论 
和 Shannon 炉 从 专家 成 果 、 引 文 网 络 以 及 基本 简介 中 
获取 专家 信息 。L. Yang 等 ”| 从 专家 的 参与 项 目 、 奖 
励 .发 表 文章 .专著 和 授予 专利 5 个 方面 描述 了 其 科研 
成 果 方面 的 信息 ,并 构建 了 基于 语义 和 知识 推理 的 专 


度 描 述 了 科研 人 员 ,这 些 不 同 来 源 的 信息 相互 补充 ,以 
全 面 地 描述 科研 人 员 。 这 些 数据 有 的 是 静态 的 ,有 的 
是 动态 的 ,其 中 个 人 信息 相对 稳定 ,属于 静态 的 信息 ， 
而 成 果 信息 、 研 究 兴趣 等 会 受到 周围 环境 或 需求 的 影 
向 而 发 生变 化 ,因此 是 动态 的 信息 。 

用 户 画 像 的 概念 最 早 由 A. Cooper 提出 。 他 认为 
“用 户 画 像 能 够 代表 一 个 真实 的 用 户 ,是 利用 用 户 的 真 


家 系统 。T. H. Trong 等 ”利用 ODP( 开 放 式 分 类 目录 


搜索 系统 ) 建 立 学 者 语义 搜索 空间 ,生成 用 于 描述 科研 
人 员 的 信息 本 体 。 


在 国内 研究 中 ,李纲 等 "融合 知识 .Web 和 社会 网 
络 传感器 的 专家 特征 识别 方法 ,设计 了 基于 多 源 信息 
融合 的 专家 特征 识别 方法 。 王 日 芬 等 ” 将 先进 的 专 
家 愉 索 技术 .社会 网 络 分 析 技术 和 可 视 化 技术 引入 到 
专家 库 的 构建 中 ,从 专家 的 基本 特征 与 关系 方面 描述 
页 种 研 人 员 信 息 ,并 设计 了 科技 咨询 专家 库 的 构建 流 


表 信 
继 训 工作 和 系统 构建 。J.，Tang 等 ”人 设计 的 AMiner 
系统 ,从 海量 文献 及 互联 网 信息 中 自动 获取 研究 者 相 
状 仿 息 并 建立 研究 者 描述 页 面 , 提 供 搜索 .学 术 评估、 


渠道 获取 专家 个 人 及 关系 信息 ,分别 完成 了 专家 


合 媳 者 推荐 . 审 稿 人 推荐 .话题 趋势 分 析 等 多 样 化 的 服 
总体 而 言 , 无 论 在 国外 还 是 国内 ,对 于 科研 人 员 信 
息 的 描述 已 经 取得 了 相应 的 成 果 。 但 是 ,我 们 发 现 ,有 
的 研究 中 专家 信息 的 描述 局 限于 学 术 资 源 ,描述 角度 
单一 ,也 缺乏 对 科研 人 员 研 究 兴趣 或 科研 关系 的 深度 
挖掘 ,描述 信息 不 全 面 *” ;其 次 ,虽然 有 的 研究 对 专家 
信息 进行 了 全 面 的 描述 ,但 是 科技 管理 者 想 要 了 解 科 
研 人 员 信息 ,还 需要 从 数据 库 中 一 一 查看 ,无 法 对 其 有 
一 个 快速 直观 的 认识 ,针对 上 述 问题 ,本 文 研究 并 
提出 科研 人 员 面 像 概念 及 其 构建 方法 。 


2 基于 多 源 动态 数据 的 科技 人 员 画 像 


总 


构建 过 程 


多 源 数 据 是 指 由 不 同 的 用 户 和 不 同 的 来 源 渠 道 产 
生 、 具 有 多 种 呈现 形式 、 描 述 同 一 主题 的 数据 。 科 
研 人 员 的 数据 来 源 往往 有 多 个 ,上 且 以 不 同 的 形式 和 角 
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实数 据 而 建立 的 用 户 模型 ”“” 。 本 文 认为 科研 人 员 画 
像 是 指 根据 科研 人 员 的 社会 属性 、 科 研习 惯 科研 行为 
等 信息 抽象 出 的 一 个 标签 化 .形式 化 的 用 户 模型 。 参 
照 用 户 画 像 的 构建 过 程 , 本 文 提 出 科研 人 员 画 像 构建 
方法 , 见 图 1。 

科研 人 员 画 像 是 一 个 动态 更 新 的 过 程 , 通 过 定期 
收集 科研 人 员 的 各 类 信息 达到 动态 更 新 的 效果 。 科 研 
人 员 画 像 构 建 过 程 如 下 :首先 从 多 个 数据 源 收集 科研 
人 员 信 息 , 包 括 人 口 属性 数据 、 科 研 成 果 数 据 、 科 研 偏 
好 数据 等 ,通过 数据 预 处 理 生 成 构建 画像 可 用 的 数据 ， 
将 数据 存储 在 科研 人 员 信 息 库 中 ,然后 用 向 量 的 形式 
将 科研 人 员 信 息 形 式 化 地 表示 出 来 ,构建 科研 人 员 模 
型 ,最 后 根据 模型 把 科研 人 员 各 个 维度 的 信息 标签 化 ， 
更 新 科研 人 员 的 信息 标签 ,并 使 用 可 视 化 工具 将 科研 
人 员 画 像 呈现 出 来 。 

2.1 数据 收集 

从 各 类 数据 源 中 获取 的 我 国 科研 人 员 的 数据 主要 
有 人 口 属 性 数据 科研 成 果 数据 .科研 行为 偏好 数据 、 
科研 合作 数据 科研 社交 数据 。 

人 口 属性 数据 是 指 科研 人 员 的 人 口 统计 学 特征 ， 
包括 姓名 、 性 别 、 出 生年 月 、 联 系 电话 等 。 科 研 成 果 数 
据 是 科研 人 员 信 息 不 可 或 缺 的 一 部 分 ,是 指 科研 人 员 
在 科学 研究 过 程 中 产生 的 具有 学 术 意 义 的 成 果 , 包 括 
期 刊 论文 ,会议 论文 .学 术 专 著 、 专 利 、 会 议 报告 等 。 科 
研 行 为 偏好 数据 代表 了 用 户 对 某 一 研究 主题 的 兴 
科研 合作 数据 代表 了 与 其 他 人 合作 产生 的 数据 ,二 者 
都 是 通过 对 科研 成 果 信息 的 分 析 得 到 的 。 科 研 社交 数 
据 是 科研 人 员 在 学 术 社 交 网 络 中 产生 的 数据 。 各 类 数 
据 具体 的 内 容 以 及 收集 方式 见 表 1。 

2.2 数据 预 处 理 

从 各 个 来 源 获取 的 数据 不 能 直接 用 来 构建 画像 ， 
需要 对 这 些 原 始 数据 进行 预 处 理 。 表 2 列 出 了 各 个 数 
据 类 型 的 原始 数据 的 特点 及 存在 的 问题 。 通 过 预 处 理 
使 之 转化 为 可 用 于 构建 科研 人 员 画 像 的 数据 。 
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1/ 数据 好 数据 
© 数据 收集 所 
CC pg CNKI、 万 方 、 维 普 、web of science、 
一 2 基金 网 、 国 家 科技 报告 服务 系统 
ma ER 
© ,| 一 量 - 一 7 » 口 
图 1 科研 人 员 画 像 构建 过 程 
表 1 科研 人 员 信 息 来 源 
数据 类 型 数据 来 源 主要 信息 必 集 方式 
人 口 属性 数据 百度 百科 、 姓名 性别、 出 生年 月 .联系 电话 .邮箱 .通讯 地 址 .工作 单位 .职位 .职称 ,学 历 及 对 应 的 人 工 收集 
个 人 主页 专业 、 工 作 经 历 候 虫 软件 
科研 成 果 数据 中 文学 术 数据 库 、 期刊 论 文 会 议论 文 ,学 术 专著 ,专利 .会议 报告 .标准 .软件 著作 权 、 科 研 奖 励 .人 才 培 数据 库 导出 
科研 行为 偏好 数据 。 ”外 文学 术 数 据 库 。 养 .举办 或 参加 学 术 会 议 .成果 技术 转移 .其 他 重要 科研 成 果 人 工 收集 
科研 合作 数据 公 虫 软件 
科研 社交 数据 学 术 社交 网 站 。 ” 好 友 列表 公 虫 软件 
表 2 各 类 数据 特点 及 存在 问题 非 结构 化 的 数据 主要 存在 于 人 口 属 性 数据 中 。 通 
数据 类 型 原始 数据 特点 数据 存在 问题 常 科研 人 员 的 基本 信息 介绍 会 以 文本 的 形式 来 描述 ， 
人 口 属性 数据 “， 文本、 图片 等 非 结构 化 数据 。 数据 缺失 ,数据 重复 、 为 了 便于 存储 以 及 科研 人 员 夯 像 的 构建 ,首先 要 将 文 
非 结构 化 .同名 异 义 < ed 
Se 二 es 本 数据 转化 成 结构 化 数据 ,这 就 需要 对 文本 中 的 命名 
科研 行为 偏好 数据 数据 重复 、 实体 进行 识别 。 命 名 实体 主要 包括 名 字 实 体 (组 织 名 、 
科研 合作 数据 同名 蜡 义 人 和 名、 地 名 ) \ 时 间 表 达 式 (日 期 \ 时 间 ) 和 数字 表达 式 
科研 社交 数据 结构 化 数据 


货币 值 百分数 等 )。 其 中 ,针对 组 织 名 、 人 名 和 地 名 
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的 识别 ,由 于 其 具有 开放 性 和 发 展 性 的 特点 ,识别 难度 
比较 大 。 目 前 国内 有 多 个 开源 的 中 文 语言 处 理工 具 可 
供 直接 调用 实现 命名 实体 识别 , 比如 复旦 大 学 研发 的 
fudanNLP ”和 中 国 科 学 院 的 NLPIR 分 词 系统 “都 可 
以 通过 Java 调用 来 实现 ,哈尔滨 工业 大 学 的 LTP 系 
统 " 还 提供 了 Python 接口 ,可 以 直接 用 Python 调用 其 
封装 成 的 pyltp 模块 实现 命名 实体 识别 ,从 文本 中 提取 
科研 人 员 的 信息 。 
结构 化 数据 中 存在 有 数据 缺失 数据 重复 以 及 同 
名 蜡 义 的 问题 。 对 于 数据 缺失 问题 可 通过 百度 搜索 引 
擎 或 咨询 本 人 等 途径 对 该 信息 进行 补充 或 完善 ;对 于 
数据 重复 问题 , 则 需 删 除 宛 余 信息 ,保证 数据 的 唯一 
性 ,余下 的 信息 相互 补充 ;对 于 同名 异 义 问题 ,需要 通 
才 天 名 消 歧 来 解决 。 人 名 消 歧 目 前 常用 的 方法 有 基于 
聚 美 的 消 歧 和 基于 实体 链接 的 消 歧 , 在 这 一 方面 已 经 
了 大 量 的 研究 “ ,并 较为 成 熟 。 
加 数据 集成 是 将 多 个 数据 源 中 的 数据 整合 起 来 统一 
雁 储 到 一 个 数据 库 中 。 在 原始 数据 中 ,由 于 不 同 来 源 
4 锥 息 采用 的 元 数据 标准 不 同 ,对 科研 人 员 信息 缺乏 
E 志 的 描述 ,同一 属性 在 不 同 的 数据 库 中 会 使 用 不 同 
的 字段 名 ,笔者 使 用 统一 的 字段 对 科研 人 员 信息 进行 
插 通 ,具体 字段 如 表 3 所 示 : 
。 表 3， 科研 人 员 信息 类 别 与 相关 字段 


系 的 科研 人 员 信 息 。 至 此 ,科研 人 员 信 息 已 经 全 部 转 
化 为 构建 科研 人 员 画 像 可 用 的 形式 ,为 画像 的 构建 黄 
定 了 数据 基础 。 
2.3 科研 人 员 画 像 模型 构建 

目前 ,在 对 科研 人 员 信息 的 描述 研究 中 ,存在 以 下 
两 个 问题 :四 数据 描述 单一 ,单一 地 从 科研 人 员 的 学 术 
成 果 方 面 描述 科研 人 员 ,忽略 其 他 方面 的 信息 ;@ 对 科 
研 人 员 信 息 没 有 一 个 直观 的 展示 。 针 对 这 两 点 问题 ， 
本 文 融合 多 数据 源 提出 了 科研 人 员 画 像 模型 ,并 将 该 
模型 进行 了 实例 化 ,将 各 个 维度 的 标签 存储 在 对 应 的 
标签 库 中 。 
2.3.1 科研 人 员 画 像 模型 ”科研 人 员 面 像 是 一 个 多 
维度 、 多 层次 的 用 户 模 型 。 根 据 科研 人 员 信 息 库 中 数 
据 的 类 型 ,本 文 定义 一 个 三 元 组 作为 用 户 信 息 的 向 量 
空间 表示 : 

User = < Demographics ,Interests , Relation > 
其 中 , 代表 用 户 的 基础 属性 维度 ,作为 用 户 信 息 的 
向 量 空间 表示 。Demographics 代表 用 户 的 基础 属性 维 
度 ,Inieresis 表示 用 户 的 科研 偏好 维度 ,Relation 代表 用 户 
的 科研 关系 维度 。 多 层次 的 科研 人 员 夯 像 模 型 见 图 2。 
2.3.2 标签 提取 及 权重 计算 

(1) 基础 模型 标签 提取 。 在 2.3.1 节 中 ,笔者 用 
Demographics = < BaseInfo, Edu, Org ,Message ,Achv > 来 
表示 用 户 的 基础 属性 模型 ,由 人 口 统计 学 维度 和 科研 


数据 库 种 类 诗 息 类 别 字段 


基 杰 信 息 数 据 个 人 信息 姓名 性别 .出 生年 月 .荣誉 称号 、 
= 研究 方向 
5 一- 教育 信息 就 读 学 校 、 就 读 学 位 ,就读 专业 、 
= 就 读 时 间 
[@ ) ee 和 ~ i 
< 工作 信息 作 单 位 工作 时 间 、 职 位 、 职 称 、 
行政 职务 


通讯 信息 通讯 地 址 、 联 系 电话 .Emai 
科研 成 果 数 据 库 ”科研 成 果 信息 ”期 刊 论文 ,会议 论文 .学 术 专 著 、 专 利 、 
会 议 报告 .标准 、 软 件 著作 权 、 科 研 奖 
励 、 人 才 培 养 . 举 办 或 参加 学 术 会 议 . 成 
果 技 术 转 移 、 其 他 重要 科研 成 果 
科研 偏好 数据 库 ”科研 兴趣 信息 ”兴趣 主题 .研究 时 间 、 相 关 成 果 
科研 关系 数据 库 ” 合 著 关系 信息 ”合作 者 合作 时 间 合作 成 果 


社交 关系 信息 ”关注 好 友 、 关 注 主题 


根据 科研 人 员 数 据 类 型 ,笔者 分 别 用 4 个 数据 库 
存储 这 些 数 据 , 分 别 是 基本 属性 数据 库 、 科 研 成 果 信 息 
库 .科研 偏好 数据 库 、 科 研 关系 数据 库 , 各 个 部 分 之 间 
相互 关联 ,其 中 基本 属性 数据 库存 储 科研 人 员 基 本 的 
人 口 统计 学 属性 数据 ,科研 成 果 信息 库存 储 各 类 成 果 
信息 ,科研 偏好 数据 库存 储 科研 人 员 感 兴趣 的 主题 , 科 
研 关 系数 据 库存 储 与 科研 人 员 产 生 合 作 关 系 和 社交 关 
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成 果 维 度 组 成 。 由 于 在 科研 信息 库 中 ,科研 人 员 的 基 
础 信息 表示 精炼 ,可 以 直接 采用 数据 库 中 的 信息 作为 
标签 ,科研 成 果 信息 的 标签 采用 成 果 的 标题 来 表示 。 

(2) 科 研 偏好 标签 提取 。 科 研 偏好 向 量 模型 为 : 

TInterests = | (7opic ,ti ), (Topic,, t,), (Topic,, 
ts), ***, (Topic,, R,)| 

其 中 ,Topic, 表示 科研 人 员 的 第 nn 个 兴趣 主题 ,i 
表示 用 户 对 第 n 个 主题 的 兴趣 度 ,i, 越 大 ,表示 用 户 的 
兴趣 度 越 高 。 由 于 关键 词 是 对 文章 内 容 的 高 度 凝练 和 
概括 ,使 用 关键 词 可 以 作为 研究 主题 的 主要 表征 。 本 
文 将 科研 人 员 发 表 文献 的 关键 词 作为 科研 人 员 的 Top- 
ic 标签 ,并 依次 计算 其 权重 ,权重 计算 如 下 : 

由 于 科研 人 员 的 研究 主题 不 是 一 成 不 变 ,会 随 着 
周围 客观 环境 或 主观 兴趣 发 生 改 变 ,因此 ,研究 主题 标 
签 权 重 的 计算 综合 采用 其 偏好 权重 和 衰减 权重 来 表 
示 。 偏 好 权重 是 指 该 标签 在 所 有 标签 中 占 的 比重 ,用 
,= 表示 ,其 中 必 表示 标签 出 现 的 次 数 ,N 表示 标签 
总 数 。 误 减 权 重 方面 ,借助 Y， Cheng 等 ”提出 的 自 适 
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范 晓 玉 ， 实 永 香 , 赵 捧 未 ,等 . 融合 多 源 数据 的 科研 人 员 画 像 构 建 方法 研究 |]. 图 书 情报 工作 ,2018 ,62(15):31 - 40. 


基础 属性 维度 


几 研 兴趣 维度 科研 关系 维度 


(Demographics) (Interests) (Relation) 
人 口 统计 学 维 科研 成 果 维 度 研究 主题 合作 关系 社交 关系 
度 (Baselnfo) (Achv) (Topic) (Corelation) (Sorelation) 
ee. 教育 经 历 Ed) 工作 经 历 通讯 信息 期 刊 论文 研究 时 间 合 著 者 关注 好 友 
aseinformation (Work) (Message) (Journal) (InteDate) (Coauthor) (Friend) 
姓名 IN 就 读 学 校 工作 单位 通讯 地 址 会 议论 文 研究 成 果 合 著 时 间 关注 时 间 
(Name) (School) (Worg) (Addr) (Conference) (Inteachv) (Codate) (Fdate) 
| 就 读 专业 工作 时 间 联系 电话 学 术 专 著 a 
性 别 (Sex) (Majon (Wdate) (Tel) (Book) feat 
出 生年 月 就 读 学 业 职位 pi 
(Birth) (Degree) (Wposition) 
荣誉 称号 就 读 时 间 
H (Honor) (Edudate) | 现 克 (wile) 
研究 方向 行政 任职 
a (sae (Wadmin) 
一 图 2 多 层次 的 科研 人 员 画 像 模型 
0 函数 来 表示 科研 人 员 对 某 一 标签 兴趣 的 衰 。 ”的 不 同 来 计算 其 贡献 值 。 本 文 参 照 作者 贡献 率 等 级 分 
减 程度 : 配 法 ,按照 作者 的 署名 顺序 分 别 计算 每 位 作者 的 贡 
2 0 (1) 。 献 权重 ,最 终 将 作者 在 每 篇 文章 中 的 权重 蚕 加 得 到 访 


OD 基 中 ,1 为 当前 时 间 ,est 为 该 标签 出 现 的 最 早 时 
间 E70/ 为 兴趣 主题 衰减 的 半衰期 。 科 研 人 员 对 主题 的 
笃 浏 同期 即 对 这 一 标签 的 研究 周期 越 短 , 刀 越 小 , 兴 
度 宋 降 越 快 ,否则 兴趣 度 下 降 越 慢 。 因 此 ,科研 人 员 近 
究 的 主题 被 赋予 更 大 的 权重 ,时 间 越 久远 的 兴 
度 感 小 。 

.一 综合 标签 的 偏好 权重 和 衰减 权重 , 某 一 标签 的 综 
全 权重 表示 为 : 


t=Aw,+(1 -A)0, (2) 

其 中 ,A 是 调和 因子 ,用 来 调节 偏好 权重 和 衰减 权 
重 的 大 小 ,这 样 既 可 以 得 到 用 户 对 研究 主题 的 偏好 程 
度 , 又 考虑 了 时 间 的 因素 ,反映 了 科研 人 员 兴 趣 的 漂 
移 。 

(3 ) 科研 关系 标签 提取 。 科 研 关 系 向 量 模型 Rela- 
tion = < ReTag,R,,R, > 中 ,ReTag 为 科研 关系 中 的 节 
点 标签 ,Ri 为 用 户 w 和 用 户 守 关系 权重 ,在 科研 关系 图 
中 用 节点 间 连 线 的 粗细 来 表示 ,及 , 为 用 户 u 在 关系 中 
的 贡献 大 小 ,在 科研 关系 图 中 用 节点 的 大 小 表示 。 

ReTag 方 点 标签 直接 采用 与 其 产生 合 著 关 系 的 科 
研 人 员 姓 名 来 表示 ,获取 科研 人 员 发 表 文章 中 的 所 有 
作者 姓名 ,去 重 之 后 作为 科研 关系 向 量 模 型 中 的 
ReTag。 

在 计算 R, 时 ,根据 用 户 w 在 这 些 文章 中 署名 位 置 


作者 的 节点 权重 。 等 级 分 配 法 是 指 合 著 文献 中 每 位 著 
者 的 权重 按 其 在 文献 中 的 排名 由 先 至 后 依次 递减 , 假 
设 某 篇 文章 有 5 位 合 著 者 ,那么 第 一 位 到 第 五 位 合 著 
者 的 贡献 度 分 别 为 5/15、4/15、3/15 、2/15 、1/15。 
此 , 某 篇 文 草 k 中 合 著 人 数 为 n, 排 名 第 i 位 的 作者 的 
贡献 度 为 ji: 


nitl 
Oi 
2 
如 该 作者 发 表 的 文章 为 m, 该 作者 总 的 贡献 度 大 
小 为 : 


(3) 


(4) 


本 文中 科研 人 员 的 数据 来 源 有 多 个 ,为 了 体现 不 
同 来 源 的 重要 程度 ,根据 不 同 来 源 设 定 该 作者 贡献 度 
的 加 权 公 式 为 : 

R,= QW +o,W, + + oa,W, (5) 

其 中 ,a, 表示 不 同 来 源 的 文献 占 文献 总 数 的 比 

重 。 假 设 科 研 人 员 数 据 来 源 有 p 个 ,从 各 个 来 源 中 获 
取 的 文献 数量 分 别 为 x; ,x,,… ,x, 那 么 

1 

RR 表示 用 户 w 和 用 户 i 产生 关系 的 强度 ,用 户 之 

间 关 系 包括 其 合 著 关 系 ,也 包括 社交 关系 ,分 别 用 
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CoR,, 和 SoR,, 来 表示 , 有 HL R,, =0.5CoR,, +0.5SoR,,。 科 
研 人 员 的 合 著 关系 用 其 合 著 的 文章 在 总 的 发 文 数 中 占 
的 比例 来 表示 , 即 


Paper 
CoR, = (7) 
Paper., 


其 中 Papaer,, 表 示 用 户 w 和 用 户 i 共同 发 文 数 , Pa- 
paer, 表示 用 户 u 的 发 文 总 数 。 科 研 人 员 的 社交 关系 
用 一 个 布尔 值 来 表示 ,如 果 用 户 i 是 用 户 w 的 好 友 ， 
SoR,, = 1 ,否则 用 0 来 表示 。 
2.4 科研 人 员 画 像 更 新 

科研 人 员 画 像 的 更 新 也 就 是 对 科研 人 员 基 本 信 
息 .科研 兴趣 以 及 科研 关系 标签 的 更 新 。 科 研 人 员 发 
生变 化 的 基本 信息 主要 有 其 工作 单位 ,联系 方式 .通讯 
地 址 、 职 称 及 职务 等 。 基 本 信息 的 更 新 可 以 由 科研 人 
员 稿 息 库 管理 者 定期 向 科研 人 员 发 送 邮件 ,提醒 其 更 
新 息 己 的 基本 信息 。 当 科研 人 员 基本 信息 库 中 的 数据 
发 慑 变化 时 ,其 对 应 的 标签 也 发 生 相应 的 变化 。 
时 研 人 员 的 科研 兴趣 标签 和 科研 关系 标签 是 基于 
科研 成 果 信息 发 生变 化 的 。 据 统计 ,在 2010 年 中 国 的 
20C 种 科技 期 刊 中 ,3164 篇 论文 的 平均 发 表 周期 为 11.6 
全 辣 汪 ,因此 应 定期 收集 科研 人 员 成 果 信息 ,根据 图 1 
的 注 程 提取 新 的 成 果 信息 中 的 关键 词 和 合作 者 ,作为 
新 阅 兴 趣 标签 和 科研 关系 标签 ,按照 2. 3.2 节 中 的 方 
法 评 算 其 权重 ,并 与 已 经 存在 的 标签 进行 比较 ,如 果 标 
篇 再 容 或 权重 发 生 了 变化 ,就 用 新 的 数据 闪 换 原来 的 
数 锯 ,然后 再 对 其 进行 可 视 化 ;如 果 没 有 发 生变 化 , 直 
接 对 原来 的 标签 进行 可 视 化 。 
2" 刀 科研 人 员 画 像 可 视 化 

科研 人 员 画 像 可 以 看 作 是 用 户 信息 的 标签 云 , 根 
据 不 同 标签 的 权重 ,用 不 同 的 大 小 将 科研 人 员 的 信息 
形象 直观 地 呈现 出 来 。 现 已 经 有 成 熟 的 工具 用 于 实现 
标签 的 可 视 化 ,如 Wordle、 tagCloud、Tagul'*| 、Tagxe- 
dol5] 等 。 


3 ”实例 验证 


为 了 证 实 方法 的 可 行 性 ,本 文 分 别 构 建 了 国内 外 
科研 人 员 的 画像 。 国 内 以 微 电 子 领域 的 某 位 专家 YYT 
教授 为 例 ,他 在 国内 外 学 术 刊 物 和 重要 学 术 会 议 上 发 
表 论 文 数 百 篇 ;国外 科研 人 员 以 华盛顿 大 学 计算 机 科 
学 与 工程 学 教授 P. Domingos 为 例 ,他 是 国际 机 器 学 习 
协会 的 联合 创始 人 之 一 , 甚 学术 水 平 得 到 国内 外 同行 
的 认可 。 本 文 给 出 了 YYT 教授 的 具体 构建 过 程 ,P. 
Domingos 画像 的 构建 过 程 同 YYT 教授 ,最 终 将 二 者 的 
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科研 人 员 画 像 可 视 化 展示 出 来 。 
3.1 数据 收集 

YYT 的 人 口 属性 数据 来 自 百度 百科 和 个 人 主页 ， 
百度 百科 作为 全 球 最 大 的 中 文 百科 全 书 ,包含 了 150 
亿 以 上 的 词 条 ,几乎 涉及 所 有 的 知识 领域 。 科 研 人 员 
的 个 人 主页 也 涵盖 了 对 其 自身 的 基本 信息 、 科 人 研 内 容 
的 介绍 。 用 扑 忠 的 方式 获取 科研 人 员 的 人 口 属性 数 
据 。 

科研 成 果 数 据 来 源 包括 中 文学 术 数 据 库 、 外 文学 
术 数 据 库 。 中 文学 术 数 据 库 主要 有 CNKI 数据 库 、 万 
方 数 据 库 维普 数据 库 , 这 三 类 数据 库 在 内 容 方 面 有 重 
复 现 象 , 但 是 又 相互 补充 ;外 文 数据 库 主要 有 Web of 
Science 和 EI 数据 库 。 国 家 自然 科学 基金 网 .国家 社会 
科学 基金 项 目 数据 库 中 有 科研 人 员 近 年 来 参与 的 各 个 
项 目 情况 ;国家 科技 报告 服务 系统 提供 了 科研 活动 的 
专题 报告 .进展 报告 .最 终 报 告 和 组 织 管理 报告 。 最 终 
共 采 集 到 期 刊 论文 数据 892 条 (中文 502 条, 外文 390 
条 ) ,会 议论 文 数据 120 条 (中 文 6 条 ,外 文 114 条 ) ,中 
文 专利 数据 519 条 ,培养 的 硕 博 士 论文 数据 208 条 。 

科研 社交 数据 来 源 于 全 球 最 成 功 的 学 术 社 交 网 站 
之 一 ResearchCate。 利 用 谎 虫 工具 八 爪 鱼 从 该 网 
站 疏 取 用 户 的 好 友 关 系 。 虽 然 该 网 站 有 用 户 的 基本 信 
息 ,也 有 用 户 的 成 果 信 息 , 但 是 为 了 数据 的 唯一 性 , 笔 
者 从 该 网 站 只 获取 YYT 的 好 友 列 表 , 最 终 获 取 到 数据 
40 条 。 

同样 ,收集 P，Domingos 教授 的 各 类 信息 数据 ,人 
口 属性 数据 来 自 他 的 个 人 主页 ,成 果 数 据 来 自 Web of 
science 和 了 I 数据库, 包括 会 议论 文 95 篇 .期刊 论 文 81 
篇 、 专 车 4 篇 ,并 从 ResearchGate 获得 59 条 科研 社交 数 
据 。 
3.2 数据 预 处 理 

在 收集 到 的 成 果 数 据 中 ,有 些 数据 是 构建 科研 人 
员 画 像 不 需要 的 数据 ,因此 只 提取 构建 画像 所 需要 的 
字段 信息 ,如 题目 .作者 .关键 词 .发表 时 间 。 外 文 数据 
中 ,如 出 版 日 期 采用 的 是 英文 的 格式 ,为 了 数据 的 统 
一 ,将 所 有 信息 中 的 日 期 格式 设置 为 “xxxx xx-xx” 的 形 
式 。 此 外 ,还 存在 数据 重复 的 现象 ,由 于 笔者 获取 的 数 
据 保 存在 数据 库 中 ,利用 Distinct 命令 去 除 重复 数据 。 
此 外 ,数据 预 处 理 中 还 存在 一 些 关 键 问题 ,主要 有 命名 
实体 的 识别 和 人 名 消 歧 问题 。 
3.2.1 命名 实体 识别 ”获取 的 人 口 属性 数据 中 ,有 部 
分 是 文本 形式 的 数据 ,如 对 科研 人 员工 作 经 历 的 介绍 ， 
本 文 利用 哈尔滨 工业 大 学 的 LIP 命名 实体 处 理工 具 ， 
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用 Python 调用 其 封装 成 的 pyltp 模块 实现 命名 实体 识 
别 , 包 括 姓名 .籍贯 .机构 .出 生日 期 等 。 如 果 直 接 利用 
Python 中 自 带 的 分 词 词典 ,一 些 较 长 的 词语 比如 “西安 
电子 科技 大 学 "就 会 被 分 成 “西安 /电子 /科技 /大 学 ”， 
这 样 抽取 的 词 没 有 实际 意义 。 因 此 ,在 分 词 时 自 定义 
分 词 词典 ,以 便 更 好 地 抽取 科研 人 员 信 息 。 

3.2.2 人 名 消 歧 处 理 ” 在 获取 的 YYT 的 英文 合作 者 
中 ,有 出 现 类 似 于 “Zhu ZY” “Wang JY” 这 样 的 名 字 缩 
写 ,为 了 更 好 地 区 分 这 些 名 字 缩 写 对 应 的 真实 姓名 ,本 
文采 用 宋 文 强 提出 的 科技 文献 中 同名 区 分 的 方法 一 一 
基于 分 布 聚 类 的 消 靶 算 法 。 该 算法 的 基本 步骤 如 
下 :GD 将 每 一 篇 文献 当 作 一 秘 , 计 算 任意 两 篇 文章 之 间 
的 相似 度 ,得 到 初始 的 N* N 矩阵 D;@ 查 找 D 中 相似 
魔 睫 大 的 两 个 文献 记录 ,将 它们 合并 到 一 个 新 徐 中 ;@ 
重 攻 计算 新 秘 与 其 他 所 有 文献 的 相似 度 ;@ 重 复 步 怠 
@ 袖 @ ,直到 最 后 的 文献 徐 为 给 定 的 秘 数 。 根 据 中 文 
舍 和 众 者 ,为 每 一 徐 匹 配 真实 的 科研 人 员 。 该 方法 的 消 
战 泌 确 率 达到 了 90% 。 本 文 用 Python 语言 实现 了 该 
算 涛 并 用 于 人 名 消 靶 。 表 4 统计 了 获取 的 数据 中 人 名 
缩写 及 相关 文献 数量 ,并 利用 该 算法 进行 了 区 分 。 经 
进 清 臣 , 在 “Zhu ZY" 的 94 篇 文献 中 ,区 分 出 有 26 篇 的 
真 上 作者 是 “ 朱 作 云 ", 有 37 篇 的 真正 作者 是 “ 朱 振 
尝 和 有 13 篇 的 作者 是 “ 朱 兆 义 "。 在 “Wang JY" 的 10 
篇 交 献 中 ,3 篇 的 真正 作者 是 王建 云 ,2 篇 的 真正 作者 
证 括 居 勇 。 将 区 分 后 的 作者 信息 分 别 补充 到 对 应 的 属 
性 审 。 剩 余 未 区 分 出 的 作者 信息 采用 人 工 的 办 法 , 根 
据 可 机构 信息 进行 进一步 区 分 。 最 后 将 处 理 好 的 数据 
存 居 到 数据 库 中 ,以 供 后 续 标签 提取 及 权重 计算 。 

加 表 4 ”人 名 缩写 数据 统计 


名 字 缩 写 文献 数量 相同 缩写 作者 数 
Zhu ZY 94 e 
Wang JY 10 2 


3.3 ”模型 表示 及 标签 提取 

在 2.3.2 中 ,科研 人 员 的 基础 属性 维度 的 标签 直 
接 用 科研 人 员 信 息 库 中 的 信息 来 表示 。 科 研 成 果 Achw 
的 标签 用 文献 的 标题 来 表示 。 由 于 科研 成 果 较 多 ,把 
近 三 年 内 的 文献 标题 作为 4Achw 的 标签 。 

科研 偏好 标签 用 成 果 信 息 中 的 关键 词 表示 。 在 统 
计时 ,由 于 科研 人 员 的 文献 来 自 于 中 外 文 数据 库 , 在 统 
计 之 前 需要 将 中 英文 对 照 , 将 所 有 英文 关键 词 转化 成 
中 文 ,人 工 修正 之 后 再 进行 统计 ,把 使 用 频次 较 多 的 关 
键 词 作为 科研 人 员 的 研究 主题 标签 ,并 根据 公式 (1) 
和 (2) 分 别 计算 权重 ,计算 时 ,设置 调和 因子 A =0. 5， 


认为 科研 人 员 的 偏好 权重 和 衰减 权重 在 综合 权重 中 所 
占 比例 相同 。 衰 减 权 重 中 半衰期 的 取 值 ,根据 关键 词 
半衰期 的 定义 “来 计算 。 科 研 人 员 关 键 词 半衰期 是 
指 某 年 度 使 用 过 的 关键 词 最 新 的 一 半 是 多 长 时 间 内 创 
建 的 ,计算 公式 是 以 =4 + (50% -B)/C, 其 中 ,4 为 累 
计 百 分 比 最 接近 50% 那 年 经 历 的 年 数 ,B 为 累计 百 分 
最 接近 50% 的 那 年 对 应 的 累计 百分比 ,C 为 累计 百 分 
比 第 一 次 超过 50% 的 那 年 的 当年 百分比 。 最 终 以 
2017 年 为 起 始 年 ,累计 百分比 最 接近 50% 的 年 份 是 
2008 年 ,那么 4=9, B=46.76% , C=5.16% ,最 终 计 
算 及 =9. 627 ,时 间 以 年 为 单位 ,计算 结果 如 表 5 所 示 : 
表 5 YYT 科研 偏好 部 分 标签 及 其 权重 


科研 偏好 标签 偏好 权重 wi 衰减 权重 0; 综合 权重 
片上 网 络 0.0075 0.604 1 0.305 7 
异步 传输 协议 0.007 8 0.523 0 0.265 4 
衬 底 驱动 0.006 2 0.523 0 0.264 6 
低 功 耗 0.009 1 0.392 1 0.200 6 
CMOS 0.020 8 0.339 6 0.180 2 
延 时 电路 0.005 2 0.336 0 0.172 4 
温度 响应 0.013 0 0.273 6 0. 143 


3 ”科研 关系 的 标签 用 科研 合作 者 的 姓名 来 表示 。 
笔者 从 获取 的 科研 人 员 成 果 信息 中 ,整合 其 中 的 所 有 
作者 ,最终 获得 产生 科研 关系 的 人 员 有 1085 个 ,根据 
公式 (3) - (7) 分 别 计算 每 位 作者 的 贡献 度 R, 和 科研 
关系 强度 R, ,计算 结果 见 表 6。 那 么 ,该 科研 人 员 的 科 
研 关 系 模型 可 表示 为 : 
Relation = | < YYT, 261. 5498 ,2. 98 >, < ZZM, 
105. 0262 ,2. 88 > , < 了 JJ ,101. 7000,1.96 >…| 
表 6 YYT 科研 关系 部 分 标签 及 其 权重 


ReTag Ri R, ReTag Rs R, 
YYT 261.5498 0.073 2 DRX 48.981 0 0.006 41 
ZZM 105.0262 0.0316 CCC 39.6812 0.506 41 
YJJ 101.7000 0.032 8 DG 33.961 9 0.006 41 
YZ 83.0667 0.0107 GXG 33.6095 0.004 90 
LYJ 59.641 3 0.009 8 CJG 30.095 2 0.004 09 
WJY 56.378 6 0.0087 LLX 24.6524 0.003 91 


基于 科研 关系 模型 ,构建 科研 人 员 关 系 网 络 ,R， 
作为 边 权 ,R, 作为 点 权 , 将 标签 信息 和 权重 信息 导入 
到 Pajek 中 ,生成 YYT 的 科研 关系 网 络 图 ( 见 图 3)。 
点 击 任意 节点 , 即 可 查看 该 科研 人 员 的 画像 。 
3.4 科研 人 员 画 像 可 视 化 

本 文采 用 可 视 化 工具 Tagul ,将 所 得 到 的 标签 导入 
到 Tagul 中 ,依据 标签 的 权重 设置 标签 的 大 小 。 在 目前 
成 熟 的 可 视 化 工具 中 以 及 现 有 的 关于 标签 云 的 研究 
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图 3 YYT 科研 关系 网 络 图 


中 ,标签 的 设置 多 依据 个 人 的 主观 意愿 ,还 未 出 现 统一 
的 设置 标准 ,本 文 为 了 使 科研 人 员 画 像 展 示 更 加 美观 ， 
将 标签 大 小 设置 在 10 以 内 ,以 便 更 好 地 展示 科研 人 员 
信和 埠 。 基 础 特征 在 了 解 科 研 人 员 信 息 时 是 比较 重要 
ee ,设置 基础 特征 的 标签 大 小 为 10。 
科研 偏好 标签 和 科研 关系 标签 的 大 小 ,用 公式 Size = 


© 
(0D 在 让 守 和 民风 币 玉 计算 ,这 样 所 有 的 标签 大 小 


后 丘 在 10 以内。 最 后 ,以 该 科研 人 员 的 照片 为 青 景 ， 
制作 科研 人 员 夯 像 , 见 图 4。 用 同样 的 方法 最 终 形成 
PE wmineos 的 科研 人 员 画 像 , 见 图 5。 在 实际 应 用 过 
稻 利 ,可 以 用 不 同 颜色 来 区 分 各 类 标签 ,使 得 信息 展示 
更 如 一 目 了 然 。 


和 EF 网 络 # 
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图 4 YYT 科研 人 员 画 像 可 视 化 展示 


本 文 基于 多 源 科 技 管理 数据 ,提出 了 科研 人 员 夯 
像 的 构建 方法 。 该 方法 从 基本 属性 、 科 研 兴 趣 以 及 科 
研 关系 方面 描述 了 科研 人 员 信 息 , 并 借助 标签 云 的 原 
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5 P. Domingos 科研 人 员 画 像 可 视 化 展示 


理 , 把 科研 人 员 信 息 直观 地 展示 出 来 ,使 得 科技 管理 者 
在 科技 决策 时 能 够 快速 掌握 科研 人 员 信 息 , 有 效 提高 
决策 效率 。 针 对 科研 人 员 画 像 构建 过 程 中 的 一 些 问 
题 ,进行 以 下 讨论 : 

在 对 科研 人 员 个 人 简介 信息 进行 命名 实体 识别 
时 ,采用 了 基于 词典 的 识别 方法 。 但 是 ,目前 针对 于 命 
名 识别 的 研究 有 很 多 。 本 文 的 实例 验证 中 采用 基于 词 
典 的 识别 方法 ,词典 的 完备 程度 是 影响 信息 抽取 效果 
的 重要 因素 。 本 文 为 了 使 信息 抽取 结果 更 加 准确 ,将 
类 似 于 “西安 电子 科技 大 学 ”: 这 样 的 长 词 添加 到 词 
典 中 ,但 是 在 处 理 多 个 科研 人 员 信 息 时 ,逐个 添加 词 到 
词 库 中 的 方法 会 浪费 大 量 的 时 间 , 当 处 理 批量 的 信息 
抽取 时 ,可 以 结合 机 器 学 习 算 法 如 CRF 算法 进行 抽 
取 “” ,并 且 CRF 算法 在 命名 识别 时 已 经 取得 了 良好 
的 效果 。 

针对 实例 验证 中 的 关键 词 中 英 对 照 问题 , 现 有 的 
研究 已 经 实现 了 自动 化 翻译 ,常用 的 方法 有 基于 规则 
的 ”基于 实例 的 ”基于 统计 的 ” 和 基于 神经 网 络 
的 空中 方法 。 近 年 来 ,基于 深度 学 习 的 神经 机 器 翻译 
方法 ”获得 迅速 发 展 ,成 为 学 术 界 和 工业 界 新 的 主流 
方法 。 但 是 ,不 同 的 机 器 翻译 方法 的 准确 度 还 有 待 提 
高 。 在 本 文 的 实例 中 ,为 了 使 构建 的 科研 人 员 画 像 更 
加 准确 ,采用 了 人 工 修正 的 方法 ,今后 随 着 技术 的 不 断 
完善 , 当 人 处 理 大 量 数据 时 ,可 以 采用 自动 化 翻译 实现 大 
规模 的 中 英 关键 词 的 对 照 。 


$5 结语 


针对 目前 研究 中 科研 人 员 信 息 描 述 角 度 单 一 和 展 
示 不 直观 的 问题 ,本 文 首 先 提出 了 科研 人 员 画 像 的 概 
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念 ,认为 其 是 一 个 标签 化 的 形式 化 描述 科研 人 员 的 用 
户 模型 ,然后 从 科研 人 员 的 基础 属性 .科研 兴趣 以 及 科 
研 关 系 维 度 构建 了 科研 人 员 画 像 ,最 后 以 可 视 化 的 方 
式 展 现 出 来 ,并 以 国内 外 科研 人 员 为 例 验证 了 该 方法 
的 可 行 性 。 该 方法 既 全 面 描述 了 科研 人 员 信 息 ,也 使 
得 信息 的 展示 更 加 直观 ,在 科研 人 员 的 评价 .评审 专家 
推荐 以 及 团队 组 建 中 有 重要 作用 。 本 文 还 存在 以 下 不 
足 :不 同 的 科研 人 员 侧 重 的 信息 也 不 同 ,基础 性 的 研究 
人 员 侧 重 考虑 其 成 果 的 水 平和 质量 以 及 在 业界 的 影 
响 ,而 应 用 型 研究 的 科研 人 员 侧 重 考虑 其 成 果 的 转化 
价值 ,探究 不 同类 型 的 科研 人 员 画 像 是 本 文 研究 需要 
拓展 的 方面 。 
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Study for the Construction Method of Scientist Profile with Multi-Source Data Fusion 
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School of Economics and Management ,Xidian University, Xi’ an 710071 

Apbstract: [ Purpose/ significance | In the age of big data, people need to be digitized, and researchers need to digi- 
tize them. The establishment of scientists profile is of great importance for scientific research managers to comprehensively 
understand the information of researchers and objectively evaluate their research level. It can be used as the basis for analy- 
zing the research behavior or recommendation of experts, and improving the efficiency of scientific research management. 
[ Method/ process | First of all, the concept of scientists profile is proposed, which is a collection of labels describing the 
information of scientific researchers. Secondly, based on the data of multiple heterogeneous data sources, such as personal 
homgpage, knowledge network and fund network, this paper proposes a method for the construction of scientists profile 
wi multi -source data. This method formally describes the information of scientific researchers from the three aspects of the 
baSie attribute ，scientific research preference and scientific research relationship ，and extracts the labels of each dimen- 
:Do vividly display the profile in a visual way. Finally, the feasibility of this method is illustrated by taking two re- 
sadhors at home and abroad as examples. [ Result/conclusion | The construction of the scientists profile is suitable for 


researchers at home and abroad, which can fully describe the information of researchers and show them visually. 


Keywords: scientist profile multi-source data user model 
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